Hello GPT-4o

https://scrapbox.io/files/6642b5e12fd334001ceb975a.png

https://openai.com/index/hello-gpt-4o/

ポイント

リアルタイム音声と豊かな感情表現が可能に

GPT-4oが実現させた、リアルタイム翻訳

GPT-4o以前は、ボイス・モードを使ってChatGPTと話すことができたが、その待ち時間は、

平均2.8秒（GPT-3.5）

平均5.4秒（GPT-4）だった。

GPT-4oでは、人間の会話応答と同じくらいの速度(平均0.3秒)で可能に

圧倒的なリアルタイム性能、および感情表現を実現させた。

様々なタスクで、最高性能

GPT-4oは、テキスト、推論、コーディング・インテリジェンスでGPT-4 Turboレベルの性能を達成

特に、多言語、オーディオ、ビジョン機能で、新たな高水準(SoTA)を打ち立てた。

GPT-4oの性能評価の結果

より速く、より安く

GPT-4oは無料で利用可能であり、Plusユーザーにはメッセージ制限が最大5倍高く設定されている。

開発者は、GPT-4o APIが使える。

GPT-4 Turboと比べて2倍の速さで、価格は半分、レート制限は5倍高くなっている。

感じたこと

感情こもりすぎですごい

→ me、me?のとこがやばい...

https://youtu.be/vgYi3Wr7v_g?si=bkFcHuzX-7ehwysr&t=54

必見👀、2つのAIが交互に歌っている...！

https://youtu.be/MirzFk_DSiI?si=8sJypWzW35AamI3f&t=266

安くてうまくて速い

松屋の牛丼か

概要

GPT-4o（"o "は "omni "の意）は、より自然な人間とコンピュータの対話への一歩であり、テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像のあらゆる組み合わせを出力として生成します。

音声入力に対して最短232ミリ秒、平均320ミリ秒で応答することができ、これは会話における人間の応答時間(新しいウィンドウで開きます)に似ています。GPT-4oは、英語とコードのテキストでGPT-4 Turboの性能に匹敵し、非英語言語のテキストでは大幅に改善され、APIでははるかに高速で50％安価です。GPT-4oは、既存のモデルと比較して、視覚と音声の理解において特に優れています。

モデル性能

GPT-4o以前は、ボイス・モードを使ってChatGPTと話すことができましたが、その待ち時間は、平均2.8秒（GPT-3.5）、5.4秒（GPT-4）でした。これを実現するために、Voice Modeは3つの独立したモデルのパイプラインになっています。1つのシンプルなモデルが音声をテキストに書き起こし、GPT-3.5またはGPT-4がテキストを取り込んでテキストを出力し、3つ目のシンプルなモデルがそのテキストを音声に戻します。このプロセスは、知能の主な源であるGPT-4が多くの情報を失うことを意味する。つまり、トーン、複数の話者、背景ノイズを直接観察することができず、笑い、歌、感情を表現することを出力できないのだ。

GPT-4oでは、テキスト、視覚、音声にまたがる、単一の新しいモデルをエンドツーエンドで訓練しました。つまり、すべての入力と出力が同じニューラルネットワークによって処理されます。GPT-4oは、これらすべてのモダリティを組み合わせた初めてのモデルであるため、私たちはまだ、このモデルで何ができるのか、そしてその限界について、表面だけを探っているに過ぎません。

モデルの評価

従来のベンチマークで測定したところ、GPT-4oは、テキスト、推論、コーディング・インテリジェンスでGPT-4 Turboレベルの性能を達成し、多言語、オーディオ、ビジョン機能で新たな高水準を打ち立てました。

詳細は、GPT-4oの性能評価の結果を参照ください。

モデルの安全性と制限

GPT-4oは、モダリティ全体で設計上の安全性を備えており、トレーニングデータのフィルタリングやポストトレーニングによるモデルの振る舞いの改良などの技術を通じて実現されています。私たちはまた、音声出力に対するガードレールを提供するための新しい安全システムを作成しました。

私たちは、準備フレームワークと自主的なコミットメントに沿って、GPT-4oを評価しました。サイバーセキュリティ、CBRN（化学、生物、放射線、核）、説得、およびモデルの自律性に関する評価では、GPT-4oはいずれのカテゴリでも中程度のリスクを超えることはありませんでした。

GPT-4oの音声モダリティが様々な新しいリスクをもたらすことを認識しています。本日は、テキストおよび画像の入力とテキスト出力を公開しています。今後数週間から数ヶ月の間に、他のモダリティをリリースするために必要な技術インフラ、ポストトレーニングによる使いやすさ、および安全性に取り組んでいきます。例えば、ローンチ時には音声出力は一部のプリセットされた声に限定され、既存の安全ポリシーに従います。GPT-4oの全モダリティに関する詳細は、今後のシステムカードで共有する予定です。

モデルの利用可能性

GPT-4oは、実用的な使いやすさの方向で深層学習の限界を押し広げる最新のステップです。私たちは過去2年間、スタックのあらゆるレイヤーで効率改善に多大な努力を注ぎました。この研究の最初の成果として、GPT-4レベルのモデルをはるかに広範に提供できるようになりました。GPT-4oの機能は段階的に展開され（本日より拡張されたレッドチームアクセスが開始されます）。

GPT-4oのテキストおよび画像機能は本日からChatGPTで展開を開始します。GPT-4oは無料のティアで利用可能であり、Plusユーザーにはメッセージ制限が最大5倍高く設定されています。数週間以内に、ChatGPT Plusのアルファ版で新しいボイスモードをGPT-4oと共に展開する予定です。

開発者は、APIでテキストおよびビジョンモデルとしてGPT-4oにアクセスできるようになりました。GPT-4oはGPT-4 Turboと比べて2倍の速さで、価格は半分、レート制限は5倍高くなっています。今後数週間で、信頼できる少数のパートナーにAPIでGPT-4oの新しい音声およびビデオ機能を提供する予定です。

/icons/hr.icon

もっと、たくさんのAI情報を知りたいあなたへ...

現在週に1度の頻度で、AIの最新情報や活用ノウハウを、メルマガ限定で発信しております。

一人でも多くの方にとって、「AI人材としてのスキルアップ」につながれば幸いです^^

また、現在、登録者限定で「AIをフル活用した新しい知的生産管理」の実演解説動画を配布中です 🎁

※ ご登録完了のメールに、URlのリンクを添付いたします。

以下のリンクから、ぜひお受け取りください👇

https://utage-system.com/p/atIZdyG7zUPv